研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容广州市某某自控阀门培训中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功广州市某某自控阀门培训中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:综合)
-
极目新闻记者 肖名远衣服、书籍、相册、吉他、日记……章莹颖短短27年的人生,被定格在一间约10平方米的小小阁楼里。章荣高和叶丽凤爬上楼,相片里的女儿对着他们甜甜地微笑。初冬下午的阳光从小窗穿进来,斜斜
...[详细]
-
孩子写作业磨洋工,家里有点动静就跑神,每天学习全靠催……您可能不知道,孩子不自律,是养育模式出了问题,尤其是下面3个教育细节,是孩子从“他律”走向“自律”的关键,却被很多家长忽视了。一、约束自己的榜样
...[详细]
-
当地时间10月2日,伊朗外交部长阿拉格齐任命伊斯梅尔·贝卡伊Esmail Baqaei)为新任伊朗外交部发言人。总台记者 李健南) 相关报道 伊朗外交部:任何侵犯伊朗权利的行动都将得到回应
...[详细]
-
据央视新闻消息,当地时间10月3日,阿盟在其总部开罗召开常驻代表级别紧急会议,讨论黎巴嫩局势问题。 黎巴嫩驻阿盟代表哈拉比在会议上表示,以色列对黎巴嫩的袭击已造成2000多人死亡,超过1万人受伤
...[详细]
-
当地时间11月27日傍晚,美国总统特朗普在佛罗里达州表示,美国将“很快”开始在陆地上采取行动,阻止所谓的委内瑞拉“毒品贩运者”。特朗普表示美国将“很快”开始在陆地上采取行动,阻止所谓的委内瑞拉“毒品贩
...[详细]
-
假期临近,出行高峰到来,不少网友会选择用第三方平台购买火车票,那么,从第三方平台买火车票靠谱吗?据中国铁路消息,铁路12306从未授权任何第三方平台发售火车票,通过第三方购票存在信息安全、票务真实性等
...[详细]
-
当地时间10月1日晚,伊朗外交部就伊朗向以色列发动导弹袭击这一军事行动发表声明。△导弹袭击以色列 声明表示,伊朗武装力量根据《联合国宪章》第五十一条的规定,履行合法防卫的固有权利,回应以色列政权
...[详细]
-
10月3日,自由式滑雪世界冠军谷爱凌在个人社交账号发文称,自己在牛津开学了。 谷爱凌写道:“在牛津开学了!新的地点,新的好奇,新的挑战。非常期待能在这样一所历史悠久且负有传奇的学府学习一学期。”
...[详细]
-
来源:中国新闻周刊 11月29日晚间,罗永浩在直播时就自己为何迟迟不公布华与华的录音做出解释。 罗永浩表示,这周“因为香港出了火灾,无论是官宣还是跟人吵架都不合适”。下周一有个大的事件官宣,“
...[详细]
-
雁荡山景区管委会通报“游客从缆车坠落”:游客受伤,原因正调查
10月2日13时许,澎湃新闻从温州乐清市委相关部门获悉,1日,雁荡山景区一名游客从缆车上不慎坠落,目前该游客无生命危险。13时28分,温州市雁荡山风景旅游管理委员会微信公号“雁荡山发布”发布通报称,1
...[详细]

中国药品价格登记系统上线
“超级牛散”,被罚!
突破!科研人员在高温超导研究领域取得新进展
美图产品AI渗透率接近90% 吴欣鸿获评2025年度科技领军人物